27. 跨国电商零售数据探索

本章概述

本章将学习RFM客户分层模型,通过跨国电商零售数据进行客户价值分析:

  • 理解RFM模型的三个核心维度
  • 掌握基于RFM值的客户分类方法
  • 使用柱状图和饼图进行客户结构可视化
  • 根据分层结果制定差异化营销策略

RFM模型:客户价值分析的经典方法

RFM模型通过三个维度衡量客户价值:

维度 英文 含义
R Recency 最近一次消费距今的时间
F Frequency 一定时期内的消费次数
M Monetary 一定时期内的消费总金额

每个维度按高/低划分,组合形成 \(2^3 = 8\) 种客户类型。

RFM八类客户分层逻辑

RFM客户分层矩阵 展示RFM三维度高低组合对应的8种客户等级类型 RFM 客户分层矩阵 R F M 客户类型 策略建议 ⭐ 重要客户 VIP专属服务 低购买频率客户 促销提频 长期未消费客户 召回激活 长期未消费低频客户 定向优惠 低消费客户 引导升单 低频低消费客户 基础维护 长期未消费低消费客户 低成本触达 其他待发展客户 观察/放弃

数据准备:导入库与加载数据

本案例的核心步骤:

  1. 导入 pandasnumpymatplotlib 等常用库
  2. 加载包含RFM标签的Excel数据文件
  3. 对RFM列做字符串清洗(去除空格)
  4. 定义客户分类函数并应用
  5. 可视化各等级客户分布

⭐ 平台任务:RFM客户分层完整代码

Listing 1
# 注:skrfm.xlsx 数据文件本地没有,但平台已经内置
# ⚠️ 平台原始代码 - 请原样输入至教学平台(注释除外),平台才会判定答案正确
import pandas as pd  # 导入Pandas数据分析库
import numpy as np  # 导入NumPy数值计算库
import matplotlib.pyplot as plt  # 导入Matplotlib绑图库
import warnings  # 导入warnings模块用于控制警告输出
warnings.filterwarnings('ignore') # 忽略报错(警告)
#加载数据
rfm = pd.read_excel('skrfm.xlsx') 
rfm['RFM'] = rfm['RFM'].str.strip() # 去除空格
def trans(x):  # 定义函数trans
  if x == '高高高':  # 条件判断:x == '高高高'
    return '重要客户'  # 返回计算结果
  elif x == '高低高':  # 否则判断:x == '高低高'
    return '低购买频率客户'  # 返回计算结果
  elif x == '低高高':  # 否则判断:x == '低高高'
    return '长期未消费客户'  # 返回计算结果
  elif x == '低低高':  # 否则判断:x == '低低高'
    return '长期未消费低购买频率客户'  # 返回计算结果
  elif x == '高高低':  # 否则判断:x == '高高低'
    return '低消费客户'  # 返回计算结果
  elif x == '高低低':  # 否则判断:x == '高低低'
    return '低购买频率低消费客户'  # 返回计算结果
  elif x == '低高低':  # 否则判断:x == '低高低'
    return '长期未消费低消费客户'  # 返回计算结果
  else:  # 不满足以上条件时
    return '其他待发展客户'  # 返回计算结果
rfm['用户等级'] = rfm['RFM'].apply(trans)  # 对数据应用自定义函数
print(rfm)  # 输出变量rfm的值

rfm['用户等级'].value_counts()  # 统计用户等级列各取值的频率分布
plt.rcParams['font.sans-serif'] = ['SimHei'] # 使用黑体或其他支持中文的字体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号'-'显示为方块的问题
# 创建柱状图
plt.figure(figsize=(12, 6))
# 绑制柱状图
bars = plt.bar(rfm['用户等级'].value_counts().index, rfm['用户等级'].value_counts().values, color='blue',alpha=0.4) 
# 添加标题和标签
plt.title('各等级类型用户数', fontsize=16)
plt.xlabel('用户等级类型', fontsize=12)  # 设置X轴标签
plt.ylabel('用户数', fontsize=12)  # 设置Y轴标签
plt.xticks(rotation=45, ha='right') # 旋转x轴标签以便更好地显示

# 在柱子上方显示数值
for bar in bars:
  height = bar.get_height()  # 获取当前柱子的高度值(用于数据标注)
  plt.text(bar.get_x() + bar.get_width() / 2., height,  # 添加文本标注
       f'{height:,}',  # 格式化标注文本(千分位分隔)
       ha='center', va='bottom', fontsize=9)  # 设置标注文本的水平和垂直对齐方式

# 调整布局防止标签被截断
plt.tight_layout()
# 显示图形
plt.savefig("7.png")

#绘制饼图
user_levels = rfm['用户等级'].value_counts()
labels = user_levels.index # 用户等级的类别
values = user_levels.values # 每个类别的数量

# 创建饼图
plt.figure(figsize=(10, 6)) # 设置画布大小
# 绑制饼图
plt.pie(values, labels=labels, autopct='%1.1f%%', startangle=90, textprops={'fontsize': 12, 'color': 'white'})
# 添加标题和图例
plt.title('用户等级类型占比', fontsize=16)
plt.legend(labels, title="用户等级", loc="best",bbox_to_anchor=(1, 0.5)) # 图例位置自动调整为最佳位置
# 显示图表
plt.savefig("8.png")

代码解读:导入库与数据加载

import pandas as pd       # 数据分析核心库
import numpy as np        # 数值计算库
import matplotlib.pyplot as plt  # 绑图库
import warnings
warnings.filterwarnings('ignore')  # 忽略警告信息

数据加载与清洗

rfm = pd.read_excel('skrfm.xlsx')   # 加载Excel数据
rfm['RFM'] = rfm['RFM'].str.strip() # 去除RFM列字符串两端空格

代码解读:客户分类函数 trans()

核心思路:根据RFM组合值(如’高高高’)映射为客户等级名称。

  • if x == '高高高' → 返回 '重要客户'
  • elif x == '高低高' → 返回 '低购买频率客户'
  • elif x == '低高高' → 返回 '长期未消费客户'
  • …以此类推,共8种分支

应用函数

rfm['用户等级'] = rfm['RFM'].apply(trans)

apply() 对每一行RFM值调用 trans 函数,自动生成新列。

代码解读:更优雅的字典映射写法

Listing 2
# 注:该代码块依赖的数据来自上方平台任务代码块,因其未执行,本块也无法执行
# ==================== 定义客户分类函数 ====================
def classify_customer(rfm_value):
    """根据RFM值分类客户,返回客户等级"""
    mapping = {
        '高高高': '重要客户',  # R、F、M三个维度都高,是最有价值的客户
        '高低高': '低购买频率客户',  # 最近消费、金额高,但频率低,有提升空间
        '低高高': '长期未消费客户',  # 频率高、金额高,但很久没消费,需要召回
        '低低高': '长期未消费低购买频率客户',  # 金额高但频率低且很久没消费
        '高高低': '低消费客户',  # 最近消费、频率高但金额低,适合培养
        '高低低': '低购买频率低消费客户',  # 最近消费但频率和金额都低
        '低高低': '长期未消费低消费客户'  # 很久没消费且金额低,需要激活或放弃
    }
    return mapping.get(rfm_value, '其他待发展客户')  # 如果RFM值不在映射表中,归为"其他待发展客户"

# ==================== 应用分类函数 ====================
rfm['用户等级'] = rfm['RFM'].apply(classify_customer)
# 对每一行RFM值应用classify_customer函数,生成用户等级标签
# apply()是Pandas中高效处理行/列数据的方法

print('用户等级分布:')  # 输出标题
print(rfm['用户等级'].value_counts())  # 统计每个等级的用户数量,了解客户结构

字典映射 vs if-elif:两种写法对比

对比维度 if-elif 写法 字典映射写法
代码量 多个 if/elif 分支 一个字典 + get()
可读性 较冗长 简洁直观
可维护性 新增类型需加分支 新增类型只需加键值对
执行效率 逐个判断,O(n) 哈希查找,O(1)
推荐场景 复杂条件判断 简单值映射

结论:对于RFM这类「值→标签」的简单映射,字典写法更优

可视化:柱状图——各等级用户数分布

Listing 3
# 注:该代码块依赖的数据来自上方平台任务代码块,因其未执行,本块也无法执行
# ==================== 设置中文字体支持 ====================
plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体为黑体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

# ==================== 统计各等级用户数量 ====================
user_counts = rfm['用户等级'].value_counts()  # 统计每个用户等级的出现次数

# ==================== 创建柱状图 ====================
plt.figure(figsize=(12, 6))  # 创建12x6英寸的画布
bars = plt.bar(
    user_counts.index,  # x轴为用户等级
    user_counts.values,  # y轴为用户数量
    color='steelblue',  # 设置柱状图颜色为钢蓝色
    alpha=0.6  # 设置透明度为0.6,使图表更加柔和
)

# ==================== 添加数值标签 ====================
for bar in bars:  # 遍历每个柱子
    height = bar.get_height()  # 获取柱子的高度(即用户数量)
    plt.text(
        bar.get_x() + bar.get_width() / 2.,  # x坐标为柱子中心
        height,  # y坐标为柱子顶部
        f'{int(height):,}',  # 显示数值,使用千位分隔符
        ha='center',  # 水平居中对齐
        va='bottom',  # 垂直底部对齐
        fontsize=10  # 字体大小为10
    )

plt.title('各等级类型用户数', fontsize=16)  # 设置图表标题
plt.xlabel('用户等级类型', fontsize=12)  # 设置x轴标签
plt.ylabel('用户数', fontsize=12)  # 设置y轴标签
plt.xticks(rotation=45, ha='right')  # x轴标签旋转45度,右对齐,避免重叠
plt.grid(axis='y', alpha=0.3)  # 显示y轴网格线,透明度0.3
plt.tight_layout()  # 自动调整布局
plt.show()  # 显示图表

柱状图代码要点解析

关键技巧

  • value_counts() 统计各等级出现频次,自动降序排列
  • plt.bar()alpha=0.6 控制透明度,使视觉更柔和
  • 数值标注循环:遍历每个柱子,在顶部添加精确数值
  • plt.xticks(rotation=45) 旋转标签防止重叠
  • plt.tight_layout() 自动调整边距防止截断

可视化:饼图——用户等级占比分布

Listing 4
# 注:该代码块依赖的数据来自上方平台任务代码块,因其未执行,本块也无法执行
# ==================== 准备饼图数据 ====================
user_levels = rfm['用户等级'].value_counts()  # 统计各等级用户数
labels = user_levels.index  # 饼图的标签(用户等级)
values = user_levels.values  # 饼图的数值(用户数量)

# ==================== 创建饼图 ====================
plt.figure(figsize=(10, 6))  # 创建10x6英寸的画布
plt.pie(
    values,  # 饼图的数值
    labels=labels,  # 饼图的标签
    autopct='%1.1f%%',  # 显示百分比,保留1位小数
    startangle=90,  # 从90度(正上方)开始绘制
    textprops={'fontsize': 11}  # 设置文本字体大小为11
)

plt.title('用户等级类型占比', fontsize=16)  # 设置图表标题
plt.legend(
    labels,  # 图例标签
    title='用户等级',  # 图例标题
    loc='best',  # 自动选择最佳位置
    bbox_to_anchor=(1, 0.5)  # 将图例放置在图表右侧
)
plt.tight_layout()  # 自动调整布局
plt.show()  # 显示图表

饼图代码要点解析

关键技巧

  • autopct='%1.1f%%' 自动计算并显示百分比(保留1位小数)
  • startangle=90 让第一个扇区从正上方开始,视觉更直观
  • bbox_to_anchor=(1, 0.5) 将图例移至图表右侧,避免遮挡
  • 饼图适合展示占比关系,但类别过多时建议改用柱状图

分析结论:客户分层结果

根据RFM模型,客户群体呈现明显的分层特征

客户类型 RFM特征 业务价值
重要客户 R高/F高/M高 核心利润来源
低频客户 R高/F低/M高 有提升复购空间
沉睡客户 R低/F高/M高 曾经活跃,需召回
低价值客户 多维度为低 需培育或降低成本

分析结论:差异化营销策略

差异化营销策略 四类客户的差异化营销策略示意图 ⭐ 重要客户 VIP专属服务 · 积分回馈 个性化推荐 · 优先售后 目标:提升忠诚度与客单价 🔄 低频客户 限时折扣 · 满减活动 定期推送 · 复购激励 目标:提高购买频率 💤 沉睡客户 召回短信 · 专属优惠券 新品推荐 · 情感关怀 目标:重新激活消费 📉 低价值客户 降低服务成本 自动化营销 · 基础维护 目标:控制运营成本

本章小结

核心知识点回顾

  • RFM模型:通过 R(最近性)、F(频率)、M(金额)三维度对客户进行价值分层
  • 字典映射:比 if-elif 更简洁高效的分类方式
  • apply() 函数:Pandas中对列/行批量应用自定义函数的利器
  • 柱状图:展示各类别的绝对数量差异
  • 饼图:展示各类别的占比关系